Diskuze: Při trénování Llama 3.1 405B se stalo 419 výpadků, 50+ % mají na svědomí karty Nvidia H100

Diskuze k článku: Při trénování Llama 3.1 405B se stalo 419 výpadků, 50+ % mají na svědomí karty Nvidia H100

31.7.2024, Milan Šurkala, aktualita

Trénování velkých LLM je dlouhý proces. U Meta Llama 3.1 405B to zabralo téměř dva měsíce, při nichž proběhlo 419 neplánovaných výpadků. Přes polovinu toho měly na svědomí akcelerátory Nvidia H100.

haunter (212) | 4.8.202415:59

jasně, že cpu mělo jen dva výpadky, když se u trénování llm skoro nepoužívá. Pokud tam byly Xeony, tak jsou i dva výpadky moc.

Odpovědět1 0

Hnizdo (450) | 31.7.20249:23

To je chybovost 0,9% behem dvou mesicu ve vysoke az maximalni zatezi (pokud co chyba to jina karta), nevime ovsem co to je ta chyba, jestli je to mrtva karta nebo neco jineho.

Odpovědět2 4

kutil05 (1026) | 31.7.202414:47

Na HW pro servery či superpočítače to je pořád moc.

Odpovědět7 2

maraou (483) | 31.7.202421:44

Je to hodně na druhou stranu v jedné desce může být myslím až 8 karet. To pravděpodobnost pádu na GPU zvyšuje naproti třeba CPU, kterých tam bude 1-2.

A současně se na to dá podívat optikou že 199 přerušení způsobilo něco jiného než GPU a to je teda taky docela hodně, čili vůči ostatním součástkám zase ty GPU nijak významně z řady nevybočují.

Dělali jsme na jednom větším clusteru (2 000 cpu) a pády simulací pravidelné a vadný HW se tam měnil každý den. A to tam ty GPU nebyly skoro žádné. Takže bych ten serverový HW zase tak neglorifikoval.

Odpovědět2 1

kutil05 (1026) | 31.7.202421:53

To je ale jedno, u HW jako je tento, naprosto nezáleží, zda za tím je opravdu ta karta a nebo SW ovladač. To řešení stojí ty velké peníze právě i proto, že má být opravdu spolehlivé.

Lidi stojící na straně Nvidie rádi říkají, že AMD nemá dobré ovladače, nebo že v AI či obecně u výpočetního nasazení nemá dobrý SW, někdy je to že prostě Nvidida má CUDA a AMD ne... Takže tady je jako dvojí metr?

Odpovědět4 2

maraou (483) | 31.7.202423:15

Možná nejprve čtěte než někomu odpovíte... Nemluvím o SW, nemluvím o AMD, Neschvaluji poruchovost, nestojím na ničí straně.

Jen konstatuji, že lidi co provozují pár ks HW mají podivnou představu o super-stabilitě serverového HW. Ale v momentu, kdy se provozují tisíce ks, tak jsou havárie na denním pořádku a a opravdu za to nemůžou jen GPU.

Odpovědět0 1

kutil05 (1026) | 31.7.202423:47

A jakou tedy máte představu o spolehlivosti, třeba sytémů Cray Shasta? To mne fakt zajímá.

Odpovědět0 0

maraou (483) | 1.8.20240:48

Sice nemám zkušenost, ale nezaměňoval bych spolehlivost komponent a spolehlivost systému. Spolehlivost celého systému je totiž daná hlavně návrhovou mírou redundance.

A co se komponent týká, tak fakt, že mainframy jako IBM Z16 mají hot-swap prakticky všechny komponenty včetně procesorů i RAM modulů zřejmě svědčí o tom, že nic nefunguje věčně.

Odpovědět0 0

kutil05 (1026) | 1.8.20241:02

Mainframy jsou jiný svět a Telum je unikát sám o sobě. Ale o tom nepíšu. Nesrovnávám GPU server s mainframem ale s superpočítačem, což fakticky je - pouze menší.

Odpovědět0 0

maraou (483) | 1.8.20249:18

Ano jiný svět, protože vše běží redundantně a dá se léčit za běhu. Taky proto mají průměrný roční neplánovaný down-time na jeden uzel téměř nula. Zatímco běžné servery se pohybují v desítkách minut, čili o dost řádů výš.

https://astecno.com.br/wp-content/uploads/2023/09/ITIC-2023-Global-Server-Hardware-Server-OS-Reliability-Report.pdf

Odpovědět0 0

kutil05 (1026) | 1.8.202413:45

Tu se al nebavili o samotné základní platformě - CPU, RAM, MB a OS. Ale kolik problémů udělaly ty samotné karty.

Odpovědět0 0

maraou (483) | 1.8.202415:43

Vy se pohorsujete nad spolehlivosti karet, kdy 220 preruseni zpusobily GPU nebo jejich pameti.

Logicky zbyva 199 preruseni necim jinym nez je GPU. Ergo deska, ram, cpu, FW, SW…

Pozastavil jsem se tedy nad tim, že jestli těch 220 pádů není při počtu 8ks na jeden case. Je statisticky přepočteno na jeden kus velmi podobná spolehlivost jako těch ostatních komponent v systému.

Odpovědět0 0

kutil05 (1026) | 1.8.202420:40

Tomu rozumím, ale je otázka, zda by tolik přerušení bylo, kdyby v každé desce nebylo 8 GPU. U těch superpočítačů se to dělá tak, že v jedné desce s dvěma CPU jsou dvě GPU. Taky by se člověk mohl ptát, proč ta GPU nejsou třeba 4. Nějaký důvod to má.

Odpovědět0 0

maraou (483) | 1.8.202421:45

Duvod nevim.

Ja vidim 8.

https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

https://developer.nvidia.com/blog/introducing-nvidia-hgx-h100-an-accelerated-server-platform-for-ai-and-high-performance-computing/

Kdyz bych to srovnal s xeonem 5. generace tak na Hopperovi je dvounasobne veliky kremikovy monoblock a to samo o sobe zvysuje pravdepodobnost, ze chybka se zkratka vloudi. 8x80 miliard tranzistoru uz neni sranda.

Odpovědět0 0

kutil05 (1026) | 1.8.202422:33

Já srovnávám s něčím jiným. Cray Shasta tedy AMD Frontier a ElCapitan - srovnávám s tím nejlpepším 2x 64 jader EPYC a 2x Instinct MI300. A znovu se ptám, proč ty MI 300 tam nejsou po čtyřech?

Odpovědět0 0

maraou (483) | 1.8.202423:36

OK, No strašně záleží na use case.

Jsou implicitní řešení rovnic , které jsou numericky příliš provázané např. mechanika staticky neurčitých konstrukcí. Tam nejde příliš benefitovat z GPU, vysoký paralelizmus je k ničemu, pokud musíte čekat na předchozí mezivýsledek.

Pokud je však matice tuhosti dostatešně hustá (objemové elementy vyšších řádů) pak lze z výhodou udělat její poměrně náročnou inverzi na GPU, což je urychlení, ale samotné rovnice jsou pak stejně řešeny na CPU.

Jsou ale problémy jako je Navier-Stokes v proudění tekutin, které v zásadě nejdou zvládnout na GPU, protože mají slabý instrukční potenciál.
Tady je hezký obrázek
https://cdn.prod.website-files.com/620d42e86cb8ec4d0839e59d/620d42e96cb8ecf02939eb86_e7b08ad97410491586d63028740b90c1.png

No proto vznikl nový přístup, k řešení proudění pomocí Lattice-Bolzmann metody, kdy se problém řeší sekvenčně prakticky obyčejným polynomem... teda místo jedné komplikované iterace uděláte několik jednoduchých aproximací a ono to vyjde skoro stejně ale díky masivní paralelizaci na GPU za mnohem kratší čas.

V Oak-Ridge potřebují řešit všechno od simulací pro jaderný průmysl, chemii, biologii... nevim co všechno.
Nemůžou si dovolit mít jednoúčelové stroje, potřebují CPU i GPU.

AI modely, tam je ten CPU snad jen na kýblování dat.

Odpovědět0 0

kutil05 (1026) | 1.8.202422:40

Teď jsem za blba... Takže oprava 4 MI250 na 64 jader. Celkem 2x EPYC a 8x Instinct. Ale s tím, že ty Instinct mají své sběrnice a 4 ks jsou propojené mezi sebou. Takže to netahá všechno PCIe sběrnice.

Odpovědět0 0

kutil05 (1026) | 1.8.202422:44

http://www.nextplatform.com/wp-content/uploads/2021/10/oak-ridge-frontier_node_diagram_lr.jpg

Odpovědět0 0

kutil05 (1026) | 31.7.20248:15

Zběžně jsem se díval a nenašel jsem, zda Nvidia H100 má na pamětech ECC nebo ne. AMD to u Instinct i grafik uvádí a taky tam tu funkci má, ale Nvidia to neuvádí.

Odpovědět4 0

madpavel (373) | 31.7.20248:42

Vzhledem k tomu, že ECC mám i na RTX4090, tak by mně přišlo hodně divné, že na těch výpočetních kartách by to neměli.

Odpovědět3 2

kutil05 (1026) | 31.7.202414:38

To může být. Já to u té karty na stránkách Nvidie, prostě nevidím.

Odpovědět3 0

STIGMA (56) | 31.7.202415:34

Strana 38 https://resources.nvidia.com/en-us-tensor-core?ncid=no-ncid

Odpovědět1 0

kutil05 (1026) | 31.7.202415:51

Super a proč to nemají už v přehledu jako AMD?
https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html